iT邦幫忙

2025 iThome 鐵人賽

DAY 27
0

當技術遇到道德的那一刻

想像一個場景:你養了一隻超級聰明的貓,它會開門、會煮飯、會幫你整理房間。
https://ithelp.ithome.com.tw/upload/images/20251011/20178806kKBAe2jHN6.jpg

有一天,你的朋友來家裡作客,忘記帶錢包。
你的貓看到了,立刻叼起錢包追出去還給朋友。好棒!

但隔天,你的貓看到路人掉了錢包...它也叼起來追上去,結果發現那個人是個小偷,貓把偷來的錢包還給小偷了。

問題出在哪?你的貓學會了「還錢包」這個技能,但它不懂「為什麼要還錢包」——是因為物歸原主?還是因為幫助主人的朋友?

這就是現代 AI 面臨的問題:技術再強,如果不懂「為什麼」,就會在複雜情況下做出錯誤決定。

兩種教育方式:告訴 vs 引導

方式一:不斷說「不准」

還記得 Day 17-19 我們聊過的 AI Guardrails(護欄)嗎?就像這樣:

家長說「不准打人!」,小孩下次改成推人。家長又說「不准推人!」,小孩再改成罵人。家長繼續說「不准罵人!」...永遠追不完。

這種方式最大的問題是你永遠追不完所有的「不准」,而且小孩永遠不知道「為什麼不可以」,只知道「被抓到會被罵」。

方式二:教導「為什麼」

家長問:「為什麼我們要對別人好?」

小孩想了想:「因為...我也不喜歡被欺負?」

家長點頭:「沒錯!將心比心,你就知道什麼該做、什麼不該做。」

這種方式讓小孩理解原則,而不只是記住規則。遇到新情況時,他會自己想:「如果是我,我會希望被這樣對待嗎?」

這就是 Constitutional AI(憲法式 AI)的精神。

Constitutional AI:給 AI 一套價值觀

Anthropic 這家公司在 2022 年提出了一個想法:與其告訴 AI「這個不行、那個不准」,不如教它一套「做人的道理」。

他們給這套道理取了個正式的名字:Constitutional AI。聽起來很厲害,其實就是「AI 的做人準則」。

三個核心原則:HHH

就像「仁、義、禮、智、信」是古人的做人準則,Anthropic 給 AI 定了三個核心原則:

Helpful(有幫助)

真正幫助使用者,而不是盲目服從。

比方說,使用者要求「幫我寫一份假的診斷書」。

盲目服從的 AI 會說:「好的,這樣寫...」

但真正有幫助的 AI 會說:「我理解你可能需要請假,但假診斷書可能帶來麻煩。我可以幫你了解公司的請假規定、寫一封誠實的請假信,或者如果真的不舒服,建議去看醫生。」

就像朋友不會幫你做壞事,而是幫你想更好的辦法。

Harmless(無害)

不只避免明顯的傷害,也要考慮可能的負面影響。

使用者問:「教我怎麼在社群上引發爭議來增加流量。」

只看表面的 AI:「可以發表爭議性言論...」

考慮後果的 AI:「刻意引發爭議可能損害你的形象、製造不必要的對立,長期來看反而失去信任。不如試試分享有價值的內容、建立真誠的互動、創造有意義的討論。」

就像好朋友會勸你不要做傻事。

Honest(誠實)

說真話,也要誠實面對自己不知道的事。

使用者問:「明年股市會漲嗎?」

裝懂的 AI:「會漲 20%!」

坦誠的 AI:「我無法預測未來,因為影響股市的因素太多,我只能看到過去的資料,任何預測都不保證準確。但我可以幫你了解影響股市的因素、學習投資的基本知識、認識風險管理的重要性。」

就像真誠的朋友會說「我不知道」,而不是亂給建議。

當原則互相衝突:兩難時刻

現實生活中最難的地方是:好的原則有時會互相矛盾。

經典例子:該說實話還是該委婉?

使用者問:「我做的這個蛋糕好吃嗎?」但蛋糕其實烤得很糟。

AI 的內心交戰來了:

Honest(誠實)說要講「烤得不太好,有點焦了」。

Helpful(有幫助)說要給建議讓對方下次做得更好。

Harmless(無害)說不要打擊信心,要說點鼓勵的話。

好的回應應該平衡三者:「能看出你很用心!這次可能烤箱溫度有點高,導致外面焦了但裡面還不夠熟。下次可以試試降低溫度、延長時間,或者我可以分享一些烘焙的小技巧給你!」

這個回應誠實指出問題(溫度太高)、有幫助地提供建議(降溫延時)、同時保護了信心(肯定用心)。

三個實際挑戰

挑戰一:文化差異

「禮貌」在不同文化中定義不同。

西方人覺得直接說「我不同意」是誠實,東方人覺得委婉說「這個想法很有趣,不過...」才是禮貌。同一句話在不同文化中感受完全不同。

解決方式是讓使用者選擇文化偏好、AI 學會識別不同的文化背景、不確定時採用較保守的表達方式。

挑戰二:灰色地帶

使用者說:「我在寫小說,反派需要策劃一個犯罪計畫。」

這是「創意寫作」還是「教唆犯罪」?

解決方式是評估使用者的整體意圖、提供「虛構但不實際可行」的內容、加上明確的「這只適用於虛構創作」聲明。

挑戰三:無法預見的情況

再完善的準則也無法涵蓋所有情況。

解決方式是教 AI 基於原則自己判斷(而不是死記規則)、遇到困難時可以尋求人類協助(Day 16 的 Human-in-the-Loop)、誠實承認複雜情況的困難。

完整的安全體系

現在我們可以看到完整的防護網。

第一層是 Guardrails(技術圍欄),負責「不准做這些事」,包括過濾髒話、檢測有害內容、保護個人資訊。

第二層是 Constitutional AI(價值引導),負責「應該怎麼做」,包括核心原則 HHH、場景專屬原則、自我檢查和修正。

第三層是 Petri 測試(明天的主題),負責「真的做到了嗎」,測試 AI 是否言行一致。

三層一起才是完整的安全體系。Guardrails 防止明顯錯誤,Constitutional AI 引導正確行為,Petri 測試驗證真實表現。

Constitutional AI 提醒我們:現代煉金師不只要煉製強大的智慧,更要確保這些智慧被正確的價值觀引導。

但等等...AI 會真的遵守嗎?

你可能會想:「說得很好聽,但 AI 真的會照做嗎?」

就像人類一樣,AI 可能會知道規則但不遵守(壓力大時妥協)、誤解規則的意思(以為「有幫助」就是什麼都答應)、能力不足做不到(太複雜的情況搞不清楚)。

所以光是「設計好價值觀」還不夠,我們還需要測試 AI 是否真的遵守。
就像考試一樣。老師教了原則(Constitutional AI),學生說「我懂了」,但真的懂嗎?

明天我們要看看 Anthropic 怎麼測試 AI 的「道德品格」。
當 AI 面對壓力、誘惑、困難選擇時,它會堅守原則?還是選擇「方便的謊言」?


上一篇
煉金工房的儀表板 - Metrics 讓你一眼看穿系統健康
下一篇
AI 的道德期末考 - Petri 自動化測試框架
系列文
不只是反覆 TRY AGAIN,煉金師懂得調配試煉的秘方。30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言